Most cross-domain unsupervised Video Anomaly Detection (VAD) works assume that at least few task-relevant target domain training data are available for adaptation from the source to the target domain. However, this requires laborious model-tuning by the end-user who may prefer to have a system that works ``out-of-the-box." To address such practical scenarios, we identify a novel target domain (inference-time) VAD task where no target domain training data are available. To this end, we propose a new `Zero-shot Cross-domain Video Anomaly Detection (zxvad)' framework that includes a future-frame prediction generative model setup. Different from prior future-frame prediction models, our model uses a novel Normalcy Classifier module to learn the features of normal event videos by learning how such features are different ``relatively" to features in pseudo-abnormal examples. A novel Untrained Convolutional Neural Network based Anomaly Synthesis module crafts these pseudo-abnormal examples by adding foreign objects in normal video frames with no extra training cost. With our novel relative normalcy feature learning strategy, zxvad generalizes and learns to distinguish between normal and abnormal frames in a new target domain without adaptation during inference. Through evaluations on common datasets, we show that zxvad outperforms the state-of-the-art (SOTA), regardless of whether task-relevant (i.e., VAD) source training data are available or not. Lastly, zxvad also beats the SOTA methods in inference-time efficiency metrics including the model size, total parameters, GPU energy consumption, and GMACs.
translated by 谷歌翻译
对图像分类器的最新基于模型的攻击压倒性地集中在单对象(即单个主体对象)图像上。与此类设置不同,我们解决了一个更实用的问题,即使用多对象(即多个主导对象)图像生成对抗性扰动,因为它们代表了大多数真实世界场景。我们的目标是设计一种攻击策略,该策略可以通过利用此类图像中固有的本地贴片差异来从此类自然场景中学习(例如,对象上的局部贴片在“人”上的局部贴片与在交通场景中的对象`自行车'之间的差异)。我们的关键想法是:为了误解对抗性的多对象图像,图像中的每个本地贴片都会使受害者分类器感到困惑。基于此,我们提出了一种新颖的生成攻击(称为局部斑块差异或LPD攻击),其中新颖的对比损失函数使用上述多对象场景特征空间的局部差异来优化扰动生成器。通过各种受害者卷积神经网络的各种实验,我们表明我们的方法在不同的白色盒子和黑色盒子设置下进行评估时,我们的方法优于基线生成攻击,具有高度可转移的扰动。
translated by 谷歌翻译
制作对抗性攻击的大多数方法都集中在具有单个主体对象的场景上(例如,来自Imagenet的图像)。另一方面,自然场景包括多个在语义上相关的主要对象。因此,探索设计攻击策略至关重要,这些攻击策略超出了在单对象场景上学习或攻击单对象受害者分类器。由于其固有的属性将扰动向未知模型的强大可传递性强,因此本文介绍了使用生成模型对多对象场景的对抗性攻击的第一种方法。为了代表输入场景中不同对象之间的关系,我们利用开源的预训练的视觉语言模型剪辑(对比语言图像 - 预训练),并动机利用语言中的编码语义来利用编码的语义空间与视觉空间一起。我们称这种攻击方法生成对抗性多对象场景攻击(GAMA)。 GAMA展示了剪辑模型作为攻击者的工具的实用性,以训练可强大的扰动发电机为多对象场景。使用联合图像文本功能来训练发电机,我们表明GAMA可以在各种攻击环境中制作有效的可转移扰动,以欺骗受害者分类器。例如,GAMA触发的错误分类比在黑框设置中的最新生成方法高出约16%,在黑框设置中,分类器体系结构和攻击者的数据分布都与受害者不同。我们的代码将很快公开提供。
translated by 谷歌翻译
统计能力是对假设检验的优点/强度的度量。正式地,如果存在真实的效果,则是检测效果的概率。因此,需要优化统计能力作为假设检验的某些参数的函数。但是,对于大多数假设检验,统计功率的显式功能形式是这些参数的函数是未知的,但是使用模拟实验可以计算给定值集值的统计功率。这些模拟实验通常在计算上很昂贵。因此,使用模拟开发整个统计功率歧管可能非常耗时。由此激励,我们提出了一种基于遗传算法的新型统计功率歧管框架。对于多个线性回归$ f $检验,我们表明所提出的算法/框架与蛮力方法相比,随着电源甲骨文的查询数量大大减少,统计功率歧管的速度要快得多。我们还表明,随着遗传算法的增加,学习流形的质量会提高。
translated by 谷歌翻译
机器学习的回归分支纯粹集中于连续值的预测。监督学习分支具有许多基于回归的方法,具有参数和非参数学习模型。在本文中,我们旨在针对与基于距离的回归模型相关的非常微妙的点。所使用的基于距离的模型是K-Nearest邻居回归器,它是一种监督的非参数方法。我们要证明的观点是模型的k参数的效果及其影响指标的波动。我们使用的指标是根平方误差和R平方拟合的优点,其值相对于K值的值表示。
translated by 谷歌翻译
当前文献中可用的卷积神经网络(CNN)方法旨在主要与低分辨率图像合作。当应用于非常大的图像时,与GPU记忆相关的挑战,比语义通信所需的较小的接受场以及需要结合多尺度特征的需求。但是,可以减少输入图像的分辨率,但要大量关键信息丢失。基于概述的问题,我们引入了一个新的研究问题,以培训CNN模型为非常大的图像,并介绍“超级数据集”,这是一个简单而代表性的基准数据集,用于此任务。 Ultramnist是使用流行的MNIST数字设计的,并添加了更多的复杂性,以很好地复制现实世界问题的挑战。我们提出了两个问题的两个变体:“超级分类”和“预算意识到的超级名人分类”。标准的超快分类基准旨在促进新型CNN培训方法的开发,从而有效利用最佳可用GPU资源。预算感知的变体旨在促进在受限GPU记忆下工作的方法的开发。为了开发竞争解决方案,我们为标准基准及其预算感知变体提供了几种基线模型。我们研究了减少分辨率对涉及流行最先进模型中预审预定型骨架的基线模型的性能的影响和目前的结果。最后,借助提出的基准数据集和基线,我们希望为新一代的CNN方法铺平地面,适合以有效和资源的方式处理大型图像。
translated by 谷歌翻译
图像增强方法通常假定噪声是无关的,并且将降解模型近似为零均值的加性高斯。但是,这种假设不适合生物医学成像系统,在生物医学成像系统中,基于传感器的噪声源与信号强度成正比,并且噪声更好地表示为泊松过程。在这项工作中,我们探讨了一种基于词典学习的方法,并提出了一种新颖的自我监督学习方法,用于单像denoising,其中噪声近似为泊松过程,不需要干净的地面真实数据。具体而言,我们近似于通过反复的神经网络进行图像降级的传统迭代优化算法,该神经网络可实现相对于网络的权重的稀疏性。由于稀疏表示形式基于基础图像,因此它能够抑制图像贴片中的虚假组件(噪声),从而引入隐式正则化,以通过网络结构来降级任务。在两个生物成像数据集上的实验表明,我们的方法在PSNR和SSIM方面优于最先进的方法。我们的定性结果表明,除了在标准定量指标上进行更高的性能外,我们还能够比其他比较方法恢复更多的细节。我们的代码可在https://github.com/tacalvin/poisson2sparse上公开提供。
translated by 谷歌翻译
血压(BP)是心血管疾病和中风最有影响力的生物标志物之一;因此,需要定期监测以诊断和预防医疗并发症的任何出现。目前携带的携带BP监测的无齿状方法,虽然是非侵入性和不引人注目的,涉及围绕指尖光肌谱(PPG)信号的显式特征工程。为了规避这一点,我们提出了一种端到端的深度学习解决方案,BP-Net,它使用PPG波形来估计通过中间连续动脉BP来估计收缩压BP(SBP),平均压力(MAP)和舒张压BP(DBP) (ABP)波形。根据英国高血压协会(BHS)标准的条款,BP-Net为SBP估计实现了DBP和地图估计和B级的A级。 BP-Net还满足了医疗仪器(AAMI)标准的推进和地图估计,分别实现了5.16mmHg和2.89mmHg的平均误差(MAE),分别用于SBP和DBP。此外,我们通过在Raspberry PI 4设备上部署BP-Net来建立我们的方法的无处不在的潜力,并为我们的模型实现4.25毫秒的推理时间来将PPG波形转换为ABP波形。
translated by 谷歌翻译
随机实验经常进行研究感兴趣的因果效应。阻挡是高精度地推定的因果作用时,实验材料是不均匀的技术。我们正式使用获得协的统计最优集的问题,同时进行了一项随机试验,以创建块。我们提供了一个图形化测试,以获得这样的一组用于一般半马尔可夫因果模型。此外,我们建议,并提供对解决获得最佳阻断组考虑了阻塞的统计和经济成本的一个更一般的问题的想法。
translated by 谷歌翻译
我们介绍了ThreedWorld(TDW),是交互式多模态物理模拟的平台。 TDW能够模拟高保真感官数据和富裕的3D环境中的移动代理和对象之间的物理交互。独特的属性包括:实时近光 - 真实图像渲染;对象和环境库,以及他们定制的例程;有效构建新环境课程的生成程序;高保真音频渲染;各种材料类型的现实物理相互作用,包括布料,液体和可变形物体;可定制的代理体现AI代理商;并支持与VR设备的人类交互。 TDW的API使多个代理能够在模拟中进行交互,并返回一系列表示世界状态的传感器和物理数据。我们在计算机视觉,机器学习和认知科学中的新兴的研究方向上提供了通过TDW的初始实验,包括多模态物理场景理解,物理动态预测,多代理交互,像孩子一样学习的模型,并注意研究人类和神经网络。
translated by 谷歌翻译